home *** CD-ROM | disk | FTP | other *** search
/ Sigcat Software Showcase 1993 / Sigcat 93 Software Showcase dataDisc.ISO / research / library / docs / scchp9.asc < prev    next >
Encoding:
Text File  |  1993-02-08  |  21.2 KB  |  474 lines

  1.  
  2.  
  3.                      CHAPTER NINE
  4.                            
  5.         DEVELOPING AN SGML DATABASE FOR CD-ROM
  6.  
  7.  
  8.  
  9.            SGML PROOF-OF-CONCEPT PROTOTYPE
  10.                 DEFENSE MAPPING AGENCY
  11.               DIGITAL SAILING DIRECTIONS
  12.  
  13.                      Walter Klaus
  14.          Defense Mapping Agency Systems Center
  15.                       Fairfax VA
  16.  
  17.                     Ronald Hawkins
  18.     Science Applications International Corporation
  19.                        McLean VA
  20.  
  21.  
  22.      Abstract: The Defense Mapping Agency (DMA) is
  23.      currently developing a Text Product Standard
  24.      (TPS) to support the production, distribution
  25.      and use of DMA publications in a digital
  26.      environment [1]. Key features of the TPS
  27.      include use of the Standard Generalized Markup
  28.      Language (SGML) for text structuring and
  29.      Compact Disc Read-Only Memory (CD-ROM) as the
  30.      distribution media. This paper provides an
  31.      overview of the effort, including the TPS
  32.      proof-of-concept prototype on CD-ROM.
  33.  
  34.  
  35. INTRODUCTION
  36.  
  37. The TPS is one leg of a standardization triad under
  38. development by DMA for its digital data products. The
  39. other two legs are the Vector Product Standard (VPS) and
  40. the Raster Product Standard (RPS). VPS will be the
  41. standard for DMA's digital vector data products and is in
  42. the final stages of development. RPS will be the standard
  43. for raster and gridded data products and is in the
  44. preliminary stages of development. A short discussion
  45. follows.
  46.      Besides producing paper maps, charts, and supporting
  47. publications for the Merchant Marine and the military
  48. services, DMA already produces some digital data products
  49. [2]. These products include vector, raster, and gridded
  50. Mapping, Charting, and Geodesy (MC&G) data supporting
  51. command, control, communications, and intelligence (C3I)
  52. systems, precision-guided weapon systems, simulators,
  53. training, scientific analyses and other applications. 
  54.      Examples of vector data products using the standard
  55. Vector Product Format (VPF) include the new Digital Chart
  56. of the World (DCW), a 1:1,000,000 scale worldwide
  57. database of geographic features; World Vector Shoreline
  58. (WVS), a 1:250,000 scale worldwide database of
  59. shorelines, international boundaries, and country names
  60. (now being converted to VPF); and, the Digital Nautical
  61. Chart (DNC) for electronic navigation and chart display
  62. currently under development.  
  63.      Examples of raster data include scanned color images
  64. of paper maps and charts such as ARC Digitized Raster
  65. Graphics (ADRG). Gridded data includes Digital Terrain
  66. Elevation Data (DTED), a worldwide database of land
  67. elevations and Digital Bathymetric Data (DBD), a
  68. worldwide database of ocean depths.
  69.      Of the products mentioned above, ADRG and DTED are
  70. currently distributed on CD-ROM; DCW will be distributed
  71. on CD-ROM shortly; a recent prototype CD-ROM for WVS is
  72. now being converted to VPF. CD-ROM is an ideal
  73. distribution media because of its low cost, high storage
  74. density, and adherence to ISO standards which provide
  75. computing platform independence. To facilitate the
  76. production and interchange of these data products and the
  77. interoperability of systems using them, DMA has embarked
  78. on this program to standardize data structures and
  79. formats.
  80.      The TPS is the third major standard under
  81. development by DMA and is at the forefront of a paper-to-
  82. digital transition of DMA's publication development and
  83. distribution environment. DMA produces a number of
  84. publications related to mapping and charting. These
  85. include the Sailing Directions and Fleet Guides, which
  86. are voyage planning and navigation publications for
  87. Merchant Marine and U.S. Navy ships; the Chart Update
  88. Manual (CHUM), which provides listings, updates, and
  89. corrections to DMA aeronautical charts; and the
  90. Gazetteer, which is a publication containing place names
  91. and related information worldwide. Efforts are underway
  92. to produce digital versions for each of these textual
  93. publications; they are further described later in this
  94. paper. Developing a standard for digital text products
  95. benefits both the producer and the users. The producer
  96. benefits because the text and graphics data for each
  97. publication is based on standard data structures,
  98. allowing a common set of tools to be used for the entry
  99. and editing of this data and permitting the transfer of
  100. data among workstations at various stages in the
  101. production process. In addition, since DMA exchanges
  102. production data with other nations, adopting standard
  103. data structures will facilitate international exchange
  104. and support interoperability as well.
  105.      The user benefits because development of the TPS
  106. will allow DMA to distribute text products as self-
  107. contained publications on CD-ROM. These "intelligent
  108. publications" will include text and graphics data
  109. integrated with retrieval software supporting access
  110. techniques such as browsing, query, and hypertext. In
  111. addition to providing an alternative to printed
  112. publications, the intelligent publication concept will
  113. support the integration of DMA's digital text products
  114. with other computerized information systems. Standards
  115. being considered and adopted under the TPS umbrella
  116. include data structures and data access language
  117. facilities which will support interoperability of
  118. intelligent publications and text databases with other
  119. standards-based digital data products.
  120.      One of the key benefits of the DMA standardization
  121. program is the eventual integration of vector, raster,
  122. and text data in common systems. The capability to
  123. reference and view DMA publication data by pointing and
  124. clicking a mouse on a vector or raster map display offers
  125. significant future potential for C3I, navigation,
  126. training, and other automated systems. 
  127.  
  128.  
  129. EXISTING STANDARDS
  130.  
  131. DMA's formal hierarchy of standards, including existing
  132. and planned ISO and ANSI standards, form the foundation
  133. of the TPS; this functionally layered hierarchy is
  134. reflected in the "TPS Meta-Model" (Figure 1). The DoD
  135. CALS/CIM concepts influenced early TPS conception. The
  136. extensive use of formal and defacto standards supports a
  137. highly flexible interface architecture (Fig. 2) based on
  138. the OSE/OSI standard models, provides independence from
  139. storage (media) devices [3] and operating systems [4],
  140. and facilitate COTS-based engineering. The TPS will
  141. provide the capability to represent not only text, but
  142. also embedded graphics in 'standard' vector and raster
  143. formats. Standards which form the basis for TPS include:
  144.  
  145. Standard Generalized Markup Language (SGML) (ISO 8879)
  146.  
  147.      It provides a standard means for defining and
  148. representing document structure using a set of 'tags'
  149. placed within the document text to signify structural
  150. components such as titles, chapters, paragraphs,
  151. illustrations, etc.; SGML is the core standard for the
  152. TPS [5].
  153.      The development of common Document Type Declarations
  154. (DTDs) (the formal expression of document structure in
  155. SGML) will clearly define publication structure,
  156. providing for controlled change as well as validation and
  157. configuration management. Maintenance of change authority
  158. and history logs ('audit trails') will also be supported,
  159. an important consideration for many DMA publications.
  160.      A key feature of SGML is its capability to reference
  161. external entities from within the tagged text. This
  162. capability will support the eventual integration of DMA's
  163. textual products and vector/raster map data products. For
  164. example, an SGML-structured digital Sailing Directions
  165. could reference a DNC 'database'. The Sailing Directions
  166. user could, by pointing and clicking with a 'mouse', call
  167. up a section of DNC for his area of interest; he would
  168. then be viewing the same chart he uses to navigate,
  169. instead of a 'picture' of a chart, which is currently the
  170. case. This type of capability would lead to greater
  171. consistency between products, reduced chance for error,
  172. and eventual development of integrated voyage planning
  173. and navigation systems.
  174.      SGML is also expected to provide a capability to
  175. interface publication databases used for in-house
  176. production to other DMA systems. An example is the
  177. marriage of digital Sailing Directions to DMA's
  178. Navigation Information Network (NAVINFONET), a special
  179. online service to mariners providing remote access to
  180. extensive maritime safety information. It can be queried
  181. from anywhere in the world via modern communications
  182. equipment on a 24-hour basis. It supports and supplements
  183. a number of navigation publications, including the
  184. Sailing Directions. SGML provides the capability to
  185. reference processing instructions which download Sailing
  186. Direction updates from the master database to the
  187. NAVINFONET computers; such an arrangement would provide
  188. faster and more accurate updates. 
  189.      An area in which SGML promises to be of great
  190. benefit is that of defining standard text data structures
  191. which can be used with intelligent retrieval systems.
  192. Systems currently available convert input textual data
  193. into a structure specific to the vendor's proprietary
  194. retrieval software; the data is then indexed for direct
  195. access and query capability. Some of these systems accept
  196. SGML as an input structure, but converted data is not
  197. SGML-structured. Retrieval systems could be developed
  198. which index SGML-structured data directly, eliminating
  199. the need to convert to vendor-specific structures. This
  200. would promote interoperability because data supplied on
  201. CD-ROM could be re-indexed for a different (or even
  202. multiple) retrieval engine(s), if desired by the end-
  203. user. The retrieval engine vendor's data preparation
  204. software would be used to add the necessary index files,
  205. but no data conversion would be required. Ultimately,
  206. standard index structures for SGML-tagged data should be
  207. developed to provide a completely open approach to text
  208. retrieval [6]. 
  209.      
  210. Volume/File Structure of CD-ROM for Information
  211. Interchange (ISO 9660)
  212.  
  213. It defines the physical organization of stored files and
  214. related volume directories on CD-ROM. It also supports
  215. the development of operating system-independent
  216. interfaces to data stored on CD-ROM media. CD-ROM was
  217. selected as a primary distribution media because of its
  218. low cost, high storage density, platform independence,
  219. and its potential for integrating other DMA digital
  220. products [7].
  221.  
  222. Tag Image File Format (TIFF)
  223.  
  224. It is an industry (defacto) standard for raster images
  225. using a flexible tag and directory scheme which is
  226. extensible without sacrificing compatibility. TIFF will
  227. be used for raster drawings and illustrations [8].
  228.  
  229. CCITT-Group/4 compression (FIPS PUB 150)
  230.  
  231. It provides a standard algorithm for the compression of
  232. black-and-white raster images. It will be used in
  233. conjunction with TIFF. providing standard compressed file
  234. structures for black-and-white images [9].
  235.  
  236. Computer Graphics Metafile (CGM) (ISO 8632)
  237.  
  238. It is a formal standard for the representation of vector
  239. graphics. It will be used for drawings and illustrations
  240. which are created or maintained as vector data [10].
  241.  
  242. Data Access Languages
  243.  
  244. These standards (under development), attempt to define
  245. protocols for accessing data on CDROM from retrieval
  246. systems. Adoption of standard data access languages and
  247. client-server architectures will separate user
  248. applications ("front-ends") from text databases on CD-
  249. ROM, allowing different standard protocol-compliant
  250. applications to access the same database. This supports
  251. interoperability and reduces the requirement to have a
  252. unique user interface and means of accessing text data
  253. for every CD-ROM database which is produced. The
  254. situation is analogous to the use of Structured Query
  255. Language for accessing traditional databases. Emerging
  256. standards which are being considered include (among
  257. others) the Compact Disc Read Only Data Exchange Standard
  258. (CD-RDx) under development by the Intelligence Community
  259. [11] and the Structured Full Text Query Language (SFQL)
  260. under development by the Air Transport Association [12].
  261.  
  262.  
  263. PROTOTYPE DEVELOPMENT
  264.  
  265. DMA is approaching the development of TPS with a
  266. prototyping effort designed to validate: (1) the
  267. standards and technologies and (2) the proposed
  268. client/server architecture (Fig. 3) selected for the TPS.
  269. It will also provide DMA publication users with a working
  270. version of a TPS-based electronic publication for
  271. evaluation and comment. The initial proof-of-concept
  272. prototype, including an intelligent publication on CD-ROM
  273. and a publication database consisting of SGML-tagged text
  274. and graphics in 'standard' formats, is planned for
  275. completion in May, 1992.
  276.      The current, non-digital 47-volume series of Sailing
  277. Directions uses an oceanic basin concept and provides,
  278. for each basin, a planning guide with the oceanographic,
  279. meteorological, route, and other information required for
  280. an ocean passage. Three to seven enroute publications
  281. accompany each oceanic planning guide to provide textual
  282. and graphic information, including coastal views and
  283. photographs required for inshore navigation and port
  284. ingress.
  285. The current non-digital, two-volume Fleet Guide, a sister
  286. publication of the Sailing Directions, contains
  287. information designed to acquaint incoming naval ships
  288. with pertinent command, navigational, operational,
  289. repair, and logistical information on frequently visited
  290. ports in both the United States and foreign countries;
  291. there is one volume for the Atlantic Fleet and one for
  292. the Pacific Fleet. Much of the information contained in
  293. the Fleet Guide is similar to that found in applicable
  294. volumes of the Sailing Directions, but the Fleet Guide
  295. emphasizes areas of special interest to U.S. Navy ships
  296. such as command relationships, operational
  297. responsibilities, and munitions support capabilities.
  298.      The Digital Sailing Directions proof-of-concept
  299. prototype data-set consists of the following publications
  300. on CD-ROM: the Planning Guide for the North Pacific (PUB
  301. 152), the Enroute Guides for Japan, Volumes I and II
  302. (PUBs 158 and 159) and Chapter 11 of the Pacific Fleet
  303. Guide (PUB 941).
  304.      The Digital Sailing Directions prototype
  305. incorporates several key standards previously described,
  306. including SGML (ISO-8879), CD-ROM (ISO-9660/10149), TIFF,
  307. CCITT-Group/4 and CGM (ISO-8632). Technology areas which
  308. are still emerging and are not demonstrated in this
  309. prototype are direct indexing of SGML-compliant data for
  310. full-text retrieval and use of a standard data access
  311. language. Developments in these areas are being followed
  312. with the goal of incorporating them into future Digital
  313. Sailing Directions and other digital text data products
  314. [13].
  315.      Development of the Digital Sailing Directions
  316. prototype began with the delivery of text in a tagged
  317. format used by the Government Printing Office. Graphics
  318. were provided in vendor-specific raster format. Analysis
  319. of the provided data revealed that the text data could be
  320. converted to the SGML structure relatively easily;
  321. however, graphics data presented a problem for two
  322. reasons: (1) the data structure was proprietary; and (2)
  323. the quality of many of the digital graphics was poor. In
  324. the end, a translator was found which could convert some
  325. of the graphics to a TIFF structure, but many had to be
  326. scanned from the original illustrations and photographs.
  327.      Document Type Definitions (DTD) for each of the
  328. publications (Planning, Enroute & Fleet Guides) were then
  329. developed and completed as formal SGML DTDs. Sailing
  330. Directions experts from DMA worked closely with the SGML
  331. consultant during this phase of the project. In addition
  332. to their experience in producing Sailing Directions
  333. publications, most of these experts possess Merchant
  334. Marine or U.S. Navy background, with 'hands on'
  335. experience in using the Sailing Directions for voyage
  336. planning. The participation of these experts was a key
  337. factor in properly defining structures embodied in the
  338. DTDs.
  339.      Following development of the DTDs, processing
  340. instructions were written to convert and add SGML tags to
  341. the input text data. Manual proofing and editing was then
  342. conducted to finalize conversion of the text data.
  343.      Graphics were converted from the vendor-specific
  344. format or scanned as necessary. Most graphics were
  345. converted to TIFF with CCITT-Group/4 compression, but at
  346. least one CGM vector graphic was included to demonstrate
  347. the technology.
  348.      The resulting database of text and graphics was then
  349. integrated with a proprietary SGML-based retrieval
  350. system. Processing instructions were developed to index
  351. the SGML-tagged data for use with this retrieval system
  352. and a customized user interface was designed for Sailing
  353. Directions display.
  354.      The Digital Sailing Directions prototype operates on
  355. an IBM-compatible personal computer running the MS/DOS
  356. operating system and the Microsoft Windows 3.0 graphical
  357. user interface; both VGA and Super VGA displays are
  358. supported. To allow smooth operation of the Windows
  359. interface and relatively quick retrieval and display of
  360. graphics, a minimum of a 80386/25 MHz microprocessor and
  361. 4 MB of system RAM is recommended. However, the prototype
  362. has been successfully demonstrated with lesser
  363. configurations.
  364.      The Digital Sailing Directions prototype CD-ROM
  365. includes two distinct components. The first consists of
  366. the SGML compliant dataset described above; it is
  367. included to demonstrate the capability for electronic
  368. interchange of publications using SGML. The data can be
  369. accessed using a SGML publishing system. The second
  370. component is a complete, intelligent publication
  371. consisting of the same prototype data-set; however, it
  372. provides the additional capability to browse through the
  373. publication and submit queries (e.g., word searches).
  374. Hypertext capabilities are also provided; graphics may be
  375. viewed by using a mouse to point and click on highlighted
  376. references in the text; additionally, the user can move
  377. between sections of the publications by pointing and
  378. clicking on highlighted cross-references.
  379.      The initial Digital Sailing Directions prototype is
  380. planned to be released to the military services and other
  381. designated evaluators in June, 1992. Concept planning is
  382. underway for a product prototype which may include the
  383. entire Sailing Directions (or a large subset) and
  384. incorporate evaluation comments from the concept
  385. prototype.
  386.      In other related efforts, DMA recently completed
  387. development of a Digital Gazetteer (DG) prototype on CD-
  388. ROM. A second prototype currently being planned will
  389. demonstrate the integration of vector map graphics (based
  390. on the VPS) with the Digital Gazetteer text database.
  391. Development of an Electronic Chart Update Manual (ECHUM)
  392. prototype on CD-ROM is also being planned. Both the DG
  393. and ECHUM products are potential candidates for TPS-
  394. compliant text products and functional integration with
  395. related digital products.
  396.  
  397.  
  398. FUTURE DIRECTIONS
  399.  
  400. Although current information technology standards permit
  401. development of a proof-of-concept prototype for TPS,
  402. significant work must still be accomplished in several
  403. areas; technology areas which require advancement to
  404. eliminate 'dependencies' are: (1) direct indexing of
  405. SGML-tagged data for use with retrieval systems; (2)
  406. development of standard (abstract) index specifications
  407. for text retrieval; (3) acceptance and implementation of
  408. standard data access languages for text retrieval
  409. applications (Fig. 4). However, the core standards for
  410. the structuring and exchange of text and graphics,
  411. including SGML, TIFF, CGM, and CD-ROM make the production
  412. and distribution of intelligent publications on CD-ROM a
  413. viable proposition in the near future. 
  414.  
  415.  
  416. REFERENCES
  417.  
  418. [1] Klaus, W., Memorandum - Proposed Text Product
  419. Standard (TPS) for CD-ROM, Defense Mapping Agency, 8 May
  420. 1991.
  421. [2] Defense Mapping Agency (DMA) - Digitizing the Future
  422. (3rd Ed.), 1991.
  423. [3] International Standard (ISO 10149), Information
  424. Processing - Data Interchange on Read-Only 120mm Optical
  425. Data Discs (CD-ROM), 1989.
  426. [4] International Standard (ISO 9945), Information
  427. Processing - Portable Operating System Interface (POSIx),
  428. 1990.
  429. [5] International Standard (ISO 8879), Information
  430. Processing - Standard Generalized Markup Language (SGML),
  431. 1986.
  432. [6] United States Air Force (USAF), Computer Resource
  433. Management Technology Program - (Draft) CD-ROM Index
  434. Architecture Specification (CIAS), 1990.
  435. [7] International Standard (ISO 9660), Information
  436. Processing - Volume and File Structure of CD-ROM for
  437. Information Interchange, 1988.
  438. [8] The Microsoft and Aldus Corporations - Tag Image File
  439. Format (TIFF) Specification (V 5.0), 1988.
  440. [9] Facsimile Coding Schemes and Coding Control Functions
  441. for CCITT-Group/4 Facsimile Apparatus, 1988.
  442. [10] International Standard (ISO 8632-1), Information
  443. Processing - Computer Graphics Metafile (CGM) for the
  444. Storage and Transfer of Picture Description Information,
  445. 1987.
  446. [11] Director Central Intelligence (DCI/IHC/ICS) -
  447. (Proposed) CD-ROM Read-only Data EXchange (CD-RDx)
  448. Standard (V 3.11), August 1991.
  449. [12] Air Transport Association (ATA) Specification-100,
  450. Manufacturers Technical Data, Digital Data Standards,
  451. October 1990.
  452. [13] Defense Mapping Agency (DMA) - Sailing Directions
  453. Product Specifications (1st Ed.), 1977 & (Draft) Product
  454. Specifications, 1990.
  455.  
  456.  
  457. Related Graphics to this paper:
  458.  
  459. %g KLA01.pcx;
  460. %g KLA02.pcx;
  461. %g KLA03.pcx;
  462. %g KLA04.pcx;
  463. %g KLA05.pcx;
  464. %g KLA06.pcx;
  465. %g KLA07.pcx;
  466. %g KLA08.pcx;
  467. %g KLA09.pcx;
  468. %g KLA10.pcx;
  469. %g KLA11.pcx;
  470. %g KLA12.pcx;
  471.  
  472.  
  473.  
  474.